Scaling Laws for Neural Language Models
GPT-3(2020/06)の前くらいのタイミング(2020/01)
Figure 1
コンピュータ資源を投入するほど、右下下がりでtest lossが下がる
計算とデータとパラメタを増やしましょう
データはtoken数
計算能力を固定すると、データよりもパラメタを優先的に増やすとよい
Figure 2
パラメタ数が多いほど、ロスの下がりやすさ
Figure 6
TransformerだけでなくLSTMもスケール則を検証
layer数(ハイパーパラメタ)
Figure 5
アスペクト比(Attention vs FFN。縦横比)
違いはないという結論らしい